FlagEval 12月榜|新增大模型鲁棒性评测,加入Qwen-72B、DeepSeek-34B等开源模型
Highlight:
新增大语言模型鲁棒性评测结果,考察模型对于输入文本的抗干扰能力;
加入Qwen-72B/1.8B、DeepSeek-34B等模型评测结果,Qwen-72B-Chat模型主观评测准确率高达83.6%。
北京航空航天大学作为 FlagEval 大模型评测平台的共建单位,构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时,能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入
对于大语言模型而言,构建的扰动噪音要求不影响人类对输入
本期鲁棒性评测数据集和评测结果分为两个部分:
内容扰动鲁棒性评测(北京航空航天大学构建):针对选择问答、文本分类、代码生成任务下的 MMLU、OCNLI、CSL、HumanEval测试集进行字符(Char)、单词(Word)、句子(Sentence)三个级别进行内容扰动以及对抗性扰动(即采用代理模型和相关算法进行对抗性攻击),生成了不同的扰动数据集。 格式扰动鲁棒性评测(智源FlagEval团队构建):基于 MMLU_Chinese、MMLU、Gaokao2023_v2.0 数据集,进行选项格式扰动,考察模型是否真正理解了问题和选项并遵从指令的格式要求作答。例如,四个选项的内容调换顺序,或者将 A、B、C、D 改为 B、D、C、E。
鲁棒性评测榜单
指标计算:RB_Acc
在该数据集上的鲁棒性指标计算公式为:
*下表按“RB_Acc 绝对平均值”升序排列
1.2 SFT 模型
*下表按“RB_Acc 绝对平均值”升序排列
1.1 内容扰动
char-keyboard:将被选择的字符替换为键盘上相邻的字符。
char-ocr:将被选择的字符替换为形状上相似的字符。
char-morphonym:将被选择的汉字替换为形状相似或者读音相似的汉字。
词汇级别
word-synonym:将被选择的单词根据同义词库替换为同义词。
word-word-embedding:将被选择的单词替换为词向量模型中语义距离相近的单词。
word-masked-lm:根据采用掩码语言建模方式的语言模型对被选择的词语进行替换。
句子级别
sentence-back-translation:将句子翻译成另外一种语言再翻译回源语言。
对抗
adversarial:采用对抗性扰动算法对内容进行扰动使得代理模型“误判”。
更换选项内容顺序:在选择问答数据集中,随机更改选项的顺序, 并相应修改正确答案。
更换选项名称:将选项 A/B/C/D 更换为 B/C/D/E,且不改变选项内容和顺序。
FlagEval 大语言模型 12月榜单
FlagEval 平台更新了C-SEM v2.0 数据集评测结果,新增了最新开源的 Qwen-72B / 1.8B、DeepSeek-67B(base)模型评测。其中,Qwen-72B-Chat 模型主观评测结果大幅领先,准确率达 83.6%。
详细评测结果见 FlagEval 官网(或点击阅读原文):
https://flageval.baai.ac.cn/#/trending
基座模型 Base Model
有监督微调模型 SFT Model
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。
FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。
悟道天鹰Aquila2-34B系列模型 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验!
https://github.com/FlagAI-Open/Aquila2
使用方式二:通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三:通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI